我们介绍RealityTalk,该系统通过语音驱动的互动虚拟元素来增强实时实时演示。增强演示文稿利用嵌入式视觉效果和动画来吸引和表现力。但是,现有的实时演示工具通常缺乏互动性和即兴创作,同时在视频编辑工具中产生这种效果需要大量的时间和专业知识。RealityTalk使用户能够通过实时语音驱动的交互创建实时增强演示文稿。用户可以通过实时语音和支持方式进行交互提示,移动和操纵图形元素。根据我们对177个现有视频编辑的增强演示文稿的分析,我们提出了一套新颖的互动技术,然后将它们纳入真人秀。我们从主持人的角度评估我们的工具,以证明系统的有效性。
translated by 谷歌翻译
In recent years, social media has been widely explored as a potential source of communication and information in disasters and emergency situations. Several interesting works and case studies of disaster analytics exploring different aspects of natural disasters have been already conducted. Along with the great potential, disaster analytics comes with several challenges mainly due to the nature of social media content. In this paper, we explore one such challenge and propose a text classification framework to deal with Twitter noisy data. More specifically, we employed several transformers both individually and in combination, so as to differentiate between relevant and non-relevant Twitter posts, achieving the highest F1-score of 0.87.
translated by 谷歌翻译
With the growth of residential rooftop PV adoption in recent decades, the problem of 1 effective layout design has become increasingly important in recent years. Although a number 2 of automated methods have been introduced, these tend to rely on simplifying assumptions and 3 heuristics to improve computational tractability. We demonstrate a fully automated layout design 4 pipeline that attempts to solve a more general formulation with greater geometric flexibility that 5 accounts for shading losses. Our approach generates rooftop areas from satellite imagery and uses 6 MINLP optimization to select panel positions, azimuth angles and tilt angles on an individual basis 7 rather than imposing any predefined layouts. Our results demonstrate that although several common 8 heuristics are often effective, they may not be universally suitable due to complications resulting 9 from geometric restrictions and shading losses. Finally, we evaluate a few specific heuristics from the 10 literature and propose a potential new rule of thumb that may help improve rooftop solar energy 11 potential when shading effects are considered.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
19009年的大流行急剧催化了电子购物者的扩散。电子购物的急剧增长无疑会对旅行需求产生重大影响。结果,运输建模者对电子购物需求建模的能力变得越来越重要。这项研究开发了预测家庭每周送货频率的模型。我们使用经典计量经济学和机器学习技术来获得最佳模型。发现社会经济因素,例如拥有在线杂货会员资格,家庭成员的平均年龄,男性家庭成员的百分比,家庭中的工人数量以及各种土地使用因素会影响房屋送货的需求。这项研究还比较了机器学习模型和经典计量经济学模型的解释和表现。在通过机器学习和计量经济学模型确定的变量效果中找到了一致性。但是,具有相似的召回精度,有序的概率模型是一个经典的计量经济学模型,可以准确预测家庭交付需求的总分布。相反,两个机器学习模型都无法匹配观察到的分布。
translated by 谷歌翻译
当今智能城市中产生的大型视频数据从其有目的的用法角度引起了人们的关注,其中监视摄像机等是最突出的资源,是为大量数据做出贡献的最突出的资源,使其自动化分析成为计算方面的艰巨任务。和精确。暴力检测(VD)在行动和活动识别域中广泛崩溃,用于分析大型视频数据,以了解由于人类而引起的异常动作。传统上,VD文献基于手动设计的功能,尽管开发了基于深度学习的独立模型的进步用于实时VD分析。本文重点介绍了深度序列学习方法以及检测到的暴力的本地化策略。该概述还介入了基于机器学习的初始图像处理和基于机器学习的文献及其可能具有的优势,例如针对当前复杂模型的效率。此外,讨论了数据集,以提供当前模型的分析,并用对先前方法的深入分析得出的VD域中的未来方向解释了他们的利弊。
translated by 谷歌翻译
人口贩运是一个普遍的问题,尽管在全球范围内为与之作斗争,但仍坚持不懈。任何年龄,种族,种族,性别,性别认同,性取向,国籍,移民身份,文化背景,宗教,社会经济阶级和教育的个人都可以成为人口贩运的受害者。随着技术的进步和引入自动驾驶汽车(AVS),人口贩子将采用新的方式运输受害者,这可以加速有组织的人口贩运网络的增长,这可以使对执法人员更具挑战性的人口贩运的探测机构。这项研究的目的是为自动驾驶汽车开发基于创新的音频分析的人口贩运检测框架。这项研究的主要贡献是:(i)为AVS定义四个非平凡,可行和现实的人口贩运情景; (ii)创建一个与人口贩运有关的新的,全面的音频数据集,其中五个类别,即哭泣,尖叫,车门爆炸,汽车噪音和对话; (iii)开发一个与人口贩运有关的音频数据分类的深1D卷积神经网络(CNN)体系结构。我们还使用新的音频数据集进行了案例研究,并评估了深1-D CNN的音频分类性能。我们的分析表明,深1-D CNN可以将来自人口贩运受害者的声音与非人口贩运声音的准确性为95%,这证明了我们框架的功效。
translated by 谷歌翻译
疏散计划是灾难管理的关键部分,其目标是将人员搬迁到安全和减少伤亡。每个疏散计划都有两个基本组件:路由和调度。但是,这两个组件与目标的联合优化,例如最大程度地减少平均疏散时间或疏散完成时间,这是一个计算问题上的问题。为了解决它,我们提出了MIP-LNS,这是一种可扩展的优化方法,将启发式搜索与数学优化结合在一起,并可以优化各种目标函数。我们使用来自德克萨斯州休斯敦的哈里斯县的现实世界道路网络和人口数据,并应用MIP-LNS来查找该地区的疏散路线和时间表。我们表明,在给定的时间限制内,我们提出的方法在平均疏散时间,疏散完成时间和解决方案的最佳保证方面找到了比现有方法更好的解决方案。我们在研究区域进行基于代理的疏散模拟,以证明解决方案的功效和鲁棒性。我们表明,即使撤离人员在一定程度上偏离了建议的时间表,我们的规定疏散计划仍然有效。我们还研究了疏散计划如何受到道路故障的影响。我们的结果表明,MIP-LN可以使用有关道路估计截止日期的信息,以成功,方便地撤离更多人,以提出更好的疏散计划。
translated by 谷歌翻译
多模式信息在医疗任务中经常可用。通过结合来自多个来源的信息,临床医生可以做出更准确的判断。近年来,在临床实践中使用了多种成像技术进行视网膜分析:2D眼底照片,3D光学相干断层扫描(OCT)和3D OCT血管造影等。我们的论文研究了基于深度学习的三种多模式信息融合策略,以求解视网膜视网膜分析任务:早期融合,中间融合和分层融合。常用的早期和中间融合很简单,但不能完全利用模式之间的互补信息。我们开发了一种分层融合方法,该方法着重于将网络多个维度的特征组合在一起,并探索模式之间的相关性。这些方法分别用于使用公共伽马数据集(Felcus Photophs和OCT)以及Plexelite 9000(Carl Zeis Meditec Inc.)的私人数据集,将这些方法应用于青光眼和糖尿病性视网膜病变分类。我们的分层融合方法在病例中表现最好,并为更好的临床诊断铺平了道路。
translated by 谷歌翻译
纵向成像能够捕获静态解剖结构和疾病进展的动态变化,向早期和更好的患者特异性病理学管理。但是,检测糖尿病性视网膜病(DR)的常规方法很少利用纵向信息来改善DR分析。在这项工作中,我们调查了利用纵向诊断目的的纵向性质利用自我监督学习的好处。我们比较了不同的纵向自学学习(LSSL)方法,以模拟从纵向视网膜颜色眼底照片(CFP)进行疾病进展,以便使用一对连续考试来检测早期的DR严重性变化。实验是在有或没有那些经过训练的编码器(LSSL)的纵向DR筛选数据集上进行的,该数据集充当纵向借口任务。结果对于基线(从头开始训练)的AUC为0.875,AUC为0.96(95%CI:0.9593-0.9655 DELONG测试),使用p值<2.2e-16,在早期融合上使用简单的重置式结构,使用冷冻的LSSL重量,这表明LSSL潜在空间可以编码DR进程的动态。
translated by 谷歌翻译